微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之GreenGene
愿关注我们的人都能找到
属于自己的皮球
文:向屿 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
数据库整理之GreenGene
官方主页:
http://greengenes.lbl.gov/cgi-bin/nph-index.cgi
新的官网链接
http://greengenes.secondgenome.com/
倒是简单,只提供数据库下载:
从官网上可以看到,最新的数据库更新停留在了2013年5月,即gg_13_5版本,但是目前可以在QIIME官网上下载到gg_13_8版本,数据下载路径:
ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
解压缩后可见:
1、notes:简要的说明文档;
2、otus:在不同相似度标准下使用 pick_otus.py 聚OTU得到的map文件;
3、rep_set/rep_set_aligned:在不同相似度标准下使用 pick_otus.py 聚OTU得到的OTU代表序列;
4、taxonomy:OTU代表序列对应的物种注释信息;
5、trees:树文件
以99%序列相似度得到的数据库文件中,包含203452条16S序列(99_otus.fasta),序列格式如下:
而其对应的序列注释文件(99_otu_taxonomy.txt)已经对部分属种水平注释进行了一点补充:
注:
1、与之前讲到的数据库物种注释信息的格式略有不同,因为是qiime整理的格式,故可以看到对于不同分类水平,其rank注释是以下划线前面的字母标识的,分别是k、p、c、o、f、g、s,对应界门纲目科属种;
2、GreenGene数据库比较明显的问题就是属种水平注释低,所以很多条目里,g和s下划线后面都是空的;
GreenGene数据库的格式整理比较简单,依据下划线前的rank信息,将rank全称整理成后面带大括号的格式即可,如下:
通过统计可知,属水平无注释信息的序列占50%左右,而种水平达到90%左右:
所以,如果关注属种水平的注释,则不建议使用该数据库。